アドベントカレンダーで言及できなかったもの | Hadoop Advent Calendar 2016 #25
こんにちは、小澤です。 この記事はHadoop Advent Calendar 25日目のものとなります。
このアドベントカレンダーも今回で最終回となります。
前回はHadoopの活用事例について書かせていただきました。
今回はアドベントカレンダーでテーマとしてあげられなかったトピックがまだまだあるのでリスタップさせていだきます。
はじめに
最終回ですが、これまでに言及できなかったトピックも多いのでそれらについて項目だけでもあげていきたいと思います。
可能な限り多くの話題に触れたいと思っていたのですが、様々なエコシステムたちがうごめくHadoop界隈ではそれはなかなか難しいようです。
Hadoopを取り巻くエコシステムたち
では、どんどん上げていきましょう
Phoenix
HBaseをSQLで操作するためのものです。
SQLは結局みんな大好きなので、HBaseを使っている方でこちらもセットで使っているなんてことも多いのではないでしょうか?
Kudu, Ozone
いわゆるオブジェクトストレージといわれる領域のものです。
HDFSのように一度入れたら更新も削除もしないデータを入れとくのではなく、そういった操作が発生するような前提のものになります。
Kerberos
認証・認可を担当するものになります。
Kerberos自体はHadoopのためにあるわけではないのですが、Hadoop上でこの手の機能が欲しい場合のデファクトスタンダードです。
Ranger, Sentry
アクセスコントロールのためのものです。
HDFSはUnixライクなパーミッションのコントロールのみなので、それ以上に細かく設定したい場合などのお供に。
CDH, HDP
クラスタ構築の話は今回しませんでした。
実際にクラスタを構築することになった場合は、これらを利用することがほとんどでしょう。
また、それぞれCloudera ManagerやAmbariとセットで利用することになると思います。
Ambari
先ほどの項目でも名前を出したAmbariですが、クラスタの管理だけでなくブラウザ上からHiveやPigを実行したりなどの便利機能があります。
管理する側にとっても、利用する側にとっても便利な機能が備えられています。
Solr
全文検索エンジンのSolrですが、こちらもHadoopファミリーに分類されているのをよく見かけます。
Hadoopとは関係なく動かすこともできるものなのですが、Hadoop関連の話題として入れてもよかったかもしれません。
ストリーム処理系
私自身があまり詳しくないということもあり、実は今回はこの辺りの話題に一切触れていませんでした。
Kafka, Flink, Flume, Stormなど様々あげられます。また、実はSpark Streamingにも触れていませんでした。この辺りが気になる方は今あげたようなキーワードで調べてみるといいかと思います。
流れを定義する系
Oozie, Azkaban, Airflow, NiFiなどなど、役割の違うものが混ざっているのでこの4つを一緒くたにするは間違っている気がしますが... どうしても複雑になる処理フローやデータの流れを管理するするためのものもいろいろあります。
YARN
YARNのリソース管理についても特に触れていませんでした。
MapReduceやTezのようなYARN上で動く仕組みを自作することはほとんどないかと思いますが、リソース管理やスケジューリングは必要になる場面もあるかと思います。
Hadoop on Cloud
こちらもほとんど触れていませんでした。
大量のデータを持っている大企業がオンプレミスで動かすというイメージの強かったHadoopですが、クラウド環境で動かす流れば確実にきています。
EMRやHDInsightなどクラウド環境提供者が出しているサービスの他にClouderaやHortonWorksもクラウド上で動かすことを前提とした仕組みを出しています。
この話題に関しては本当は優先的に1記事分取り上げたかったのですが、それはまた別な機会にさせていただきます。
終わりに
今回はアドベントカレンダー内で触れられなかった話題についてあげました。
書いている時に忘れていただけで、実は他にもいろいろあったんじゃないかという気がしてなりません。
そのくらいいろいろなものが存在しています。
日進月歩でまだまだこの先どうなっていくのかわからない部分も多い世界ですが、利用シーンも確実に増えてきており、それの裏付けとも言えるかと思います。
これにてこのアドベントカレンダーはおしまいです!
ここまでお付き合いいただきありがとうございました。